周勇教授:“分块集成(DC)算法为大数据分析提供可发展前景”|Fundamental Research
我们正处于数据呈现井喷式增长的时代,大数据已成为当前前沿研究和应用的热点问题,随着社会经济与科技活动变得日益互联多元,形成海量超高维的数据资源,这些资源与现代信息技术的结合极大地推动了大数据产业链的形成,科学技术的进步。在现代生活的各个领域,大数据的价值日益突显,例如,越来越多的机构收集存储并分析大数据,背后所蕴藏非常丰富的商业价值及科学价值。一般来说,大数据是指无法用一台机器进行数据处理与分析的数据集,因此传统的统计和计量分析方法,无论是计算方法还是统计理论,不再适用。为应对大数据计算上的挑战,有一些质朴而直观的算法先后被提出,如分块集成(Divide and Conquer )算法(下称 DC算法)与最优子抽样算法。DC算法指的是先将大数据集随机分为多个小数据集,并在多台子机器上分别进行运算,再将得到的运算中间结果在中心机器上整合,以构成最终的输出结果,参见图1。这个算法具有交互有效,运算速度快等优点。但是,算法的成功往往需要设计一个稳健且有效的整合多个中间结果的方法,而且还需要考虑数据传输的效率。
华东师范大学周勇教授课题组在国家自然科学基金委员会主管、主办的Fundamental Research 第五期上发表了大数据下拟合Expectile风险度量回归模型的研究,该Expectile 模型被广泛应用在风险度量与管理领域。该研究重点关注大数据下的Expectile风险度量回归模型的高效算法及其统计推断问题。提出了一种交互有效的DC算法,并利用助置信分布法对来自多个子机器的运算结果进行聚合,从而获得一种稳健且通讯有效的数据整合大数据分析方法。同时,该研究系统地分析了子机器数量K与总样本量N之间的关系,并允许K随着N的增大而增大。并通过实现计算准确性与计算效率之间的平衡,给出了一种关于K有效的选取。作者相信,该论文所提出的算法不仅有理论支撑,而且在实际应用中可以有效地解决大数据所带来的计算挑战。
IMAGE: HOW THE DIVIDE AND CONQUER ALGORITHM WORKS
文章信息
Linear expectile regression under massive data
Shanshan Song,Yuanyuan Lin, Yong Zhou
扫码免费阅读
作者简介
周 勇 华东师范大学经管学部教授,统计交叉科学研究院院长,国家杰出青年科学基金获得者,中国科学院百人计划入选者,国务院政府特殊津贴专家,“新世纪百千万人才工程”国家级人选,国务院学位委员会第七届统计学科评议组成员。现任教育部应用统计专业硕士教学指导委员会委员、中国统计学会副会长、中国优选法统筹法与经济数学研究会副理事长、中国管理科学学会常务理事。主要从事大数据分析与建模、金融计量、风险管理、计量经济学、统计理论和方法等科学研究工作。先后承担并完成国家杰出青年科学基金项目、国家自然科学基金委员会重点项目等项目10余项,曾获得省部级奖励2项。在 The Annals of Statistics、Journal of The American Statistical Association、Biometrika、Journal of Econometrics和Journal of Business & Economic Statistics 等期刊发表学术论文近200篇。
宋珊珊 香港中文大学统计系博士后研究员。主要研究兴趣为大数据分布式计算、大数据子抽样技术、高维数据统计推断、变量选择、半监督学习。目前共发表SCI论文2篇。
更多Fundamental Research文章分享可关注期刊微信公众号
期刊文章推荐阅读
●巩金龙教授:“碳酸氢根电解质在电极表面的富集可有效促进CO2电化学还原”
●孙洁研究员:"Cr3+预嵌入提高水系锌离子电池钒基正极材料电化学性能"
●张强教授:“锂电池电解液中的离子–溶剂化学:从单一溶剂到多溶剂模型”
●韩宏伟教授、胡玥副教授:“可印刷介观钙钛矿太阳能电池最新效率纪录”
●沈洪兵院士、彭志行教授:“中国COVID-19症状前研究证实疫情早期筛查的重要性”
●张干研究员:“放射性碳同位素(14C):研究人类活动影响大气环境和气候变化的利器”
●冯新斌研究员:"单一富集稳定汞同位素示踪技术研究水稻植株中汞的来源和转化过程"
●Fundamental Research 被Scopus收录
更多期刊介绍请点击下方阅读原文查看
KeAi
科爱出版
植根中国,影响全球!
KeAi 由科学出版社和Elsevier共同投资成立,出版了超百种英文学术期刊,囊括了自然科学、地球科学、材料、工程、医学、生命科学、社会科学等学科。
关注KeAi,时刻了解期刊动态!